حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با دینامیک نامعین به کمک یادگیری تقویتی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی
- author بهاره کیومرثی خمارتاش
- adviser علی کریم پور محمد باقر نقیبی سیستانی
- publication year 1392
abstract
یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رویکردی متفاوت برای حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با استفاده از یادگیری تقویتی ارائه شده است. ابتدا با استفاده از دینامیک سیستم و دینامیک ورودی مرجع، یک سیستم دینامیکی افزوده تعریف شده است. بر اساس سیستم افزوده معرفی شده، یک تابعی معیار با ضریب تنزیل برای مسئله کنترل بهینه ردیابی معرفی شده است. نشان داده شده است که برای یافتن پاسخ بهینه، در فرمول بندی ارائه شده تنها نیاز به حل یک معادله جبری ریکاتی افزوده می باشد و پاسخ کنترلی حاصل از حل این معادله شامل هر دو قسمت پیشرو و پسخور ورودی کنترلی می باشد. بنابراین می توان از روش های یادگیری تقویتی برای حل مسئله پیش رو برای سیستم های دارای عدم قطعیت بهره گرفت. با توجه با این خصوصیت، ابتدا مسئله ردیابی بهینه به صورت بر خط برای سیستم های با دینامیک نیمه معین با استفاده از شبکه عصبی فعال-نقاد حل شده است. سپس مسئله ردیابی بهینه به کمک الگوریتم q-learning به صورت بر خط برای سیستم ها با دینامیک کاملا نامعین حل شده است. در نهایت، از آنجائی که در عمل حالات سیسستم ممکن است در دسترس نباشند، مسئله ردیابی به صورت بر خط برای سیستم های با دینامیک کاملا ناشناخته و بدون نیاز به اندازه گیری حالات سیستم تنها با اندازه گیری داده های ورودی و خروجی و ورودی مرجع حل شده است.
similar resources
حل برخط بازی های دیفرانسیلی افق نامحدود برای سیستم های دینامیک-نامعین زمان-پیوسته با استفاده از الگوریتم های یادگیری تقویتی
بازیهای دیفرانسیلی امروزه کاربردهای گسترده در زمینه های مختلف از جمله سیستمهای مخابرات بیسیم و شبکه، سیستمهای اقتصادی و راهبرد های دفاعی یافته اند. حل بازیهای دیفرانسیلی تکیه بر حل معادلات همیلتون-جاکوبی دارد. حل این معادلات در حالت غیرخطی بسیار مشکل بوده و ممکن است حتی در موارد ساده فاقد حل تحلیلی سرتاسری باشند. اکثر روش¬های ارائه شده برای حل این معادلات، روشهای تقریبی برون خطی هستند که در آنه...
کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی
این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی...
full textتوسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله
در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...
15 صفحه اولحل دستگاه معادلات خطی به کمک بهینه سازی
درریاضیات کاربردی، به ویژه تعیین جواب تقریبی برای معادلات انتگرال و معادلات دیفرانسیل معمولی و پاره ای، به مسائلی برخورد می کنیم که گر چه از نظر تئوری دارای جواب یکتا هستند ولی در عمل، با گسسته سازی آنها، جوابهای عددی زیادی برای مسأله به دست می آید. در چنین مواردی باید به طریقی از بین جوابهای تقریبی آن را که به جواب واقعی نزدیکتراست انتخاب کرد. مسائل بد وضع دارای ویژگی فوق هستند. متأسفانه مدل ر...
full textکنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی
این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی ...
full textاثربخشی آموزش حل مسئله ریاضی با روش بازی بر انگیزش درونی حل مسئله در دانشآموزان مبتلا به اختلال یادگیری ریاضی
یکی از مشکلات دانشآموزان مبتلا به اختلال یادگیری ریاضی کمبود یا عدم انگیزش برای حل مسئله ریاضی است. هدف پژوهش حاضر بررسی اثربخشی آموزش حل مسئله ریاضی با روش بازی بر انگیزش درونی حل مسئله در دانشآموزان مبتلا به اختلال یاد گیری ریاضی بود. روش پژوهش آزمایشی با طرح پس آزمون با گروه گواه بود. جامعه این مطالعه شامل تمام دانشآموزان دختر و پسر مبتلا به اختلال یادگیری ریاضی شهر تربت حیدریه در سال ت...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023